查看原文
其他

因果推断在机器学习中的实践前沿方向

况琨 DataFunSummit
2024-09-10

导读本次分享题目为基于工具变量的因果推断和因果可泛化学习。当前,以深度学习为核心的机器学习和人工智能技术迅猛发展,给人们生产生活带来了巨大的深刻变化。人工智能在带来巨大机遇的同时,也蕴含着风险和挑战。现阶段以数据驱动、关联学习为模式的机器学习方法倾向于在数据驱动下对变量之间关联关系进行统计建模,缺乏以知识指导机制实现变量之间“由果溯因”的因果推断与分析有效方法,导致其普遍存在解释性不强、稳定性不高等问题。复杂数据中变量之间关联关系有三种来源:因果关联(Causation)、混淆偏差(Confounding Bias)和选择偏差(Selection Bias)。本次将分享如何从大数据中的复杂关联中,利用因果推断技术甄别出真实的因果关联。

本次报告主要包括以下四大部分:

1. 研究背景

2. 机器学习赋能因果推断

3. 基于工具变量回归的因果可泛化学习

4. Q&A

分享嘉宾|况琨 浙江大学 副教授
编辑整理|陆月生
内容校对|李瑶
出品社区|DataFun


01

研究背景

1. 深度学习面临不可解释的重大挑战

现阶段深度学习有三大特征:
  • 数据驱动:即数据训练,将数据输入到模型中进行训练;
  • 关联学习:模型基于给定训练数据集,进行关联学习;
  • 概率输出:即最后的输出,判断这个图片有“狗“的概率是多少。
以数据驱动、关联学习、概率输出为特征的深度学习存在什么问题呢?以一个简单的图片识别问题为例:识别一张图片中是否有狗。在很多预测问题中,我们拿到的数据集往往都是有偏的,比如我们拿到的数据中有80%的图片中狗都在草地上,这样就导致在训练集中草地这一特征会和图片中是否有狗这个变迁十分相关。基于这样的有偏数据集学习一个预测模型,无论是简单的logistic regression,还是Deep Model,都很有可能会将草地这一特征学习成很重要的预测特征。这样的预测模型,首先是不可解释的,其次,对于未来的测试数据集,如果和训练集一样也是狗在草地上,则模型可以得到正确的预测结果,当然测试数据集也可能是狗在沙滩上,但是背景中有一些树木或者绿植,这时模型也许能识别出来。但是对于狗在水里的图片,基于我们的训练集学习出来的模型肯定会识别不准。这样就导致了对于所有未知的测试数据集,模型的预测特别不稳定。
综上,该案例中存在着下面三个问题:
  • 为什么图像会被识别为“狗
  • 为什么会用“草地”预测狗?
  • 为什么面向不同测试数据,结果差异大?

本质原因是现阶段的深度学习,还处于关联分析阶段,并未跨越到因果推理。因此,深度学习需要引入因果启发,做到“知其然,并知其所以然“。

2. 将因果引入机器学习是解决可解释性、稳定性的重要途径
Judea Pearl提出的人工智能三种模型依次为:关联、干预和反事实,其中干预和反事实属于因果推理范畴。
  • 关联:当前绝大多数机器学习、深度学习的模型都仍处于关联阶段,包括当前的大模型。
  • 干预:指去干预或者调整一个变量,观察结果变化,解决的是“因之果“的问题。
  • 反事实:在干预的结果上做反向思考,找到产生这个结果的原因是什么,解决的是“果之因“的问题。

02

机器学习赋能因果推断

1. 数据决策样例
模型A与模型B,从整体效果对比上看,模型B(成功SR率:5.4%)优于模型A(成功率SR:5%)。通过收入这一特征对客户进行分层(分为低收入和高收入客群)后,不管是低收入群体还是该收入群体,模型A的效果都要优于模型B。

出现上述问题,主要是上述数据只体现了数据关联,并未体现因果。所以,实际场景中的决策,需要考虑因果推断。现实应用中,如某一款药物上市前需要通过随机实验来评估药物的因果效应,或在日常工作中算法落地时进行AB 测试评估算法的因果效应。因果推断/因果效应评估对决策制定非常重要。

2. 因果的定义

变量 T 是变量 Y 的原因,需要满足两个条件:

保证其他所有的变量不变的情况下(条件1),改变T会导致Y发生变化(条件2)。

如果在保证其他所有变量都不变的情况下,改变变量T,发现变量 Y 也变化,那么就有理由相信Y 的变化是由 T 导致的,也就是说T 是 Y 的原因。

在定义好因和果之后,我们可以进一步定义因果效应,即在因变量改变一个单位时果变量改成程度。

符号上,我们常用T表示干预变量,如评估感冒后吃药的因果效应,我们用T=1表示吃药,T=0表示不吃药。

则Y(T=1)表示吃药后的结果,Y(T=0)表示不吃药的结果。

个体因果效应:指的是某个患者吃药的结果减掉其不吃药的结果,

整体因果效应:指的是所有患者吃药的结果期望减掉所有患者不吃药的结果期望。

3. 因果效应的评估

估计因果效应的黄金准则是随机对照试验(Randomized Experiments are the “Gold Standard”),但在实践过程中,会存在成本和伦理道德的问题。因此很多学者开始研究在观测数据下如何进行因果推断。在观测数据中,我们可以保证因果推断的第二个条件(即改变因变量T,观测数据中存在T=1和T=0的数据),但是不一定能满足其第一个条件(即其他所有变量的分布在T=1和T=0两个群体分布是一致的)。因此,在观测数据下进行因果推断,主要的挑战在于如何平衡其他变量(其实主要就是混淆变量,即那些会同时影响干预变量T和结果变量Y的变量)的分布。

最直接的方法是基于Matching的方法,为Treated Group匹配Control Group中特征分布一致的人群,通过匹配后的人群计算因果效应。但是在高维情况很难找到两个特征分布一样的样本,因此该方法很难应用到高维情况中。为了解决这一问题,出现了基于Propensity Score的方法,该方法通过计算样本在Treated Group的概率来实现Matching。将在Treated Group概率相同的样本进行匹配,理论上也能保证匹配后的样本混淆变量的分布是一致的。基于Propensity Score的方法主要有Propensity Matching,Propensity Weighting,Doubly Robust等。但是这类方法将所有的观测变量都笼统地当作混淆变量;另外,这些方法主要是为二值的干预变量设计的。

近期,随着深度学习的发展,一些深度学习技术也用于因果推断。如通过深度表针学习,约束T=1和T=0两个群体的特征分布在表征空间一致。但是这些方法同样存在没有区分混淆变量和非混淆变量问题;另外,这些方法也是针对二值干预变量设计的。

综上,大数据背景下做因果推断仍然存在三类问题:

第一、并不是所有观测到的变量都是混杂因子,换言之就是不是所有观测到的变量都需要去控制,比如头发的颜色,衣服的颜色;

第二、需要控制的混杂因子并没有都被观察到。这种情况下,如何去控制这些偏差;

第三、干预变量往往是复杂的,会存在多值、连续和高维的情况。

本次分享主要聚焦于第二部分,即针对混杂因子未被观测到的情况下,如何通过工具变量来解决这个问题。

4. 工具变量的应用

因为因果关系分析在经济学中的的应用,安格里斯特和因本斯荣获了2021年诺贝尔经济学奖。他们研究了越南战争期间,是否服兵役对收入的影响,这个研究就用到了工具变量。

①工具变量的定义

在评估 T 跟Y的因果效应时,如果能够找到一个变量Z,满足以下三个条件,就可通过因果推断工具变量的方法评估出因果效益:

第一:Z 跟 T 相关;

第二:Z 不会直接影响Y,但会通过 T 影响Y;

第三:Z 跟U(未观测到的混杂因子)独立。

简单讲,如果可以找到变量Z去估计T到Y的因果效益,则可以通过两阶段回归,即用Z回归T,得到T ̂;再由T ̂与Y做回归,这样就可以得到因果效应的结果。如在是否服兵役对收入影响的研究中,就采用了生日变量这个特征作为工具变量,来推测是否服兵役。

但并不是所有情况都会有明确的工具变量(Predefined IV),同时该方法目前局限在线性,可以探索其非线性的情况。

②给定工具变量

因果图如下,要去评估T 对 Y 的一个因果效应,包括四部分:
  • Z:工具变量;
  • X:观测到的混杂因子;
  • U:未观测到的混杂因子;
  • T和Y:干预变量和结果变量。
第一阶段:用 Z 跟 X 去回归T,得到T ̂;

第二阶段:用T ̂和 X 去回归Y,从而得到T 对 Y 的因果效应。

但从模型回归效果看,表现欠佳,主要是因为第一阶段和第二阶段X都作为混杂因子,会影响模型效果。如右图所示,X在第二阶段回归中仍然是混杂因子。那么是否可以在第二阶段就把X的影响去掉?具体的,可以通过以下操作进行优化,优化后效果提升明显:
  • 在两个回归阶段中间,对X进行表征学习,得出Φ(x),同时约束Φ(x)与T ̂独立;
  • 再用Φ(x)与T ̂对y进行回归。

③工具变量无效情况

实际操作中,我们很难得到一个有效的工具变量,且工具变量的那些条件(如工具变量要和未观测的混杂因子独立)是无法检测的。在该工作中,我们就假设拿到的是一些无效的工具变量,如允许这些无效的工具变量和未观测的混杂因子不独立,即不满足无混淆性假设。

下图中用E 来表示未观测到的混杂因子,仍然是要评估 T 对 Y 的一个因果效应,同时给定一些无效工具变量z_1、z_2……. z_m从该因果图我们可以发现,在给定E,T和X的情况下,z_1、z_2……z_m与Y条件独立。利用该条件独立,我们提出利用z_1、z_2……z_m的信息来回复未观测混杂因子E中混杂信息。具体操作时,我们提出学习E’,直到满足给定E’, T和X的情况下,z_1、z_2……z_m与Y条件独立,那么我们就认为E’包含了E中所有的混杂信息,可以用E’来代替E,解决了E未观测的难题。

④没有工具变量的情况

很多极端情况下,给定的数据并不包含工具变量,且很多数据是异质的(Heterogenous),则需要通过聚类或其他方法,将数据拆分成多个同质数据集,而拆分后数据集的Index则可以作为工具变量进行计算。

⑤自动生成工具变量(AutoIV)

理想情况下,在评估T对Y的因果效应时,有一部分混杂因子X,还有一部分未观测到的混杂因子U。那么就可以从X中对Z进行表征学习,同时限定 Z 跟 T 要相关, Z 跟 U 要独立, Z 又不能直接影响Y。这样就可以把X分为两部分, Z和C,同时保证Z跟T相关,Z跟C独立。在此条件下,工具变量就可以自动生成了。

03

基于工具变量回归的因果可泛化学习

如果可以从复杂数据里面将因果关联恢复出来,再将因果关联赋能机器学习算法,就可以进一步提升机器学习的可信能力。今天分享的第二个主题就是如何将工具变量引入到因果可泛化学习,即将因果关联泛化或者因果的迁移学习。

1. 任务介绍

给定K个数据集的情况下,从这K个数据集中训练模型,然后将模型应用到第K+1、第K+2个数据集上,但因为目前第K+1、K+2个数据集是未知的,那么如何做一个鲁棒性强、可泛化的学习?

2. 案例-手写数字1的识别
以手写体数字识别预测做案例,预测数据是1还是9。

不同人输入的样式不同(即X输入不同),但不同输入都被识别为1,主要是因为有Common Sense ,即1就是这个样子。总结下来,就是X的输入是受 Nature Variable 影响的,而X又影响到Y。

3. 案例-手写数字6的识别
在Domain m里面,X^m中的6如下图,因为6的样式是受F^ivt(即前文提及的Common Sense 影响),同时也会收到个人风格即F^m影响,比如有人也会将4写成这样,因此就会被识别成6或者4。

因果图上看,即X^m是受F^ivt和F^m影响。首先,F^ivt(Common Sense)是未知的,F^m(即个人的Style)也是未知的,而Y^m是受X^m和F^m影响,这是Domain m的数据产生形式,而下面是Domain n的数据产生形式。两个Domain之间是独立的,但都受F^ivt(common sense)的影响,那么F^ivt就可以把这两个Domain联系起来,进而就成为Domain m的一个工具变量,即X^n和X^m相关。

前文指出,工具变量Z需要满足3个条件,即Z影响T,Z与U独立,Z不直接影响Y。结合上述案例,X^n和X^m肯定相关(都受F^ivt影响),X^n与F^m也是独立的,同时X^n并不直接影响Y^m。因此,通过下面这个因果图,就可以证明就是Domain m中X和Y之间因果效应的一个工具变量。

后面就可以通过两阶段回归即可,针对第一阶段中图像之间不能做回归的问题,可以用匹配的方式,即找Domain m和Domain n之中最相似的案例,然后在做第二阶段的回归。通过这个方法,只需要一个Domain 的label就可以解决现实问题。根据这个思想进行的实验结果证明,效果提升比较明显。

4. 社交网络中IV的应用(NetIV)
在做因果推断时,有样本与样本之间独立的前提假设,但是在社交网络中该假设是不满足的。比如,某人看不看电影就受其朋友的影响。而朋友的一些特征,就可以作为混杂因子或工具变量,影响到某人的Treatment,进而影响某人的Outcome。解决这个问题的思路就是,从社交网络中朋友的信息中,去学习两部分信息,一部分作为混杂因子,一部分作为工具变量,去做因果估计。

整体来讲,工具变量在经济学、社会学中应用广泛,尤其在因果推断和机器学习的场景里面,有很多具体应用。本次分享主要针对工具变量的一些方法和分类做了介绍。为了更好的推动工具变量等方法在机器学习和因果推断中的交叉应用,我们课题组成员撰写了一篇关于工具变量调研文章,详细介绍了工具变量在因果推断和机器学习中的方法与应用。

04

Q&A

Q1: 在工具变量回归,不同的Domain m 和Domain n 里面,两个是不是指代的同一个?

A1: F^ivt是同一个, F  ^m与F^n不是同一个F ,f 是同一个f ,是Causal Function。

今天的分享就到这里,谢谢大家。


分享嘉宾

INTRODUCTION


况琨

浙江大学

副教授


况琨,浙江大学计算机学院副教授,博士生导师,人工智能系副主任。主要研究方向包括因果推理、数据挖掘、因果可信机器学习。在数据挖掘和机器学习领域已发表近60余篇顶级会议和期刊文章,包括KDD、ICML、NeurIPS、MM、AAAI、TKDE、TKDD、Engineering等。曾获2022年ACM SIGAI China 新星奖(Rising Star Award),2021年度中国科协青年人才托举工程项目支持,2022年度高等学校科学研究优秀成果奖(科学技术)科技进步一等奖,2021年度中国电子学会科技进步一等奖,2020年度中国人工智能学会优秀博士学位论文提名奖。

往期优质文章推荐

往期推荐


我们能获得推荐系统的大模型吗?

AIGC与大模型赋能机器人智能控制

百度凤巢大模型与搜索广告满意度设计与实践

当大语言模型遇见推荐系统

一个范式了解通用人工智能的进化!神经网络大模型 ⊕ 知识图谱 ⊕ 强化学习 = AGI

蚂蚁金融事理图谱构建及应用

快手3D数字人直播互动解决方案

大语言模型是推荐系统的解决方案吗?

如何让大模型自由使用外部知识与工具

货拉拉用户埋点体系建设实践

懂数据才能搞好业务,数据平台在Qunar的精细化运营中如何实现业务增值?

数据驱动:指标体系如何助力业务增长

数据服务化在京东的实践

基于OLAP和指标体系的电商数据服务底座

点个在看你最好看

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存